研究笔记 |《大公报》广告图像编码中的统计应用
本篇推送尝试向大家介绍一些笔者在研究过程中使用到的一些数据分析的方法,包括统计学的一些基础知识、假设检验和统计分析的概念与操作。并且通过使用笔者目前的一个项目主题——“《大公报》韦廉士医药广告和香烟广告图像中的女性空间”生产的不同性质数据列举一些适用案例,具体做法为选取《大公报》中的威廉士和香烟广告图像为研究对象,进行编码之后运用统计分析的方法来解析其图像符码的量化特征,以期为统计学方法在人文社科的运用给出一些实例。
文章框架
本文将在下面的篇幅中按照上述框架来进行介绍。
一 、数据与变量
1.1 变量分类
在我们开始讲具体的统计之前,我们需要对于变量做一个基本的认识,因为针对不同的变量需要运用不同的统计方法。
在生活中我们总是会接触各种各样的信息。例如在曾让我烦恼的体测中,每个人的年级、性别、体温、身高体重,跑100/800米的时间,以及每分钟做仰卧起坐或是引体向上的数量,都会被记录而形成数据。而仔细想想,这些数据又有一些微妙的区别:比如性别(这里不做过多讨论)只有两种取值,即男和女,且没有高低或优劣等级之分。而与之相似的,年级也有有限个取值,但二年级肯定比一年级要高。至于身高体重,取值却有无限多个。但是身高可以是165.5cm,但是仰卧起坐的个数却不会出现30.5次的情况。所以基于这些特征,我们可以对它们做一个分类:
变量分类(作者自绘)
而对于定量型变量,对于其能否取整可以又分为离散型变量和连续型变量:
定量变量分类(作者自绘)
初步了解变量的类型之后,我们就对于后续会用于分析的大公报编码节点作为变量,来进行举例:
大公报图像编码节点树状图(作者自绘)
大概可以分为以下几类:
大公报图像编码节点变量分类(作者自绘)
1.2 变量描述性统计
描述性统计是拿到数据进行清洗筛选等预处理工作后的第一件事。目的是对于数据趋势、数据分布形式进行分析[1]。其中,数据趋势包括集中趋势和分散趋势,此外还可以通过各种图表来进行直观表达。
变量描述性统计方法(作者自绘)
二、参数估计与假设检验
首先我们看一下经典统计学的结构:
经典统计学结构(作者自绘)
统计学大概可以分为描述统计与推断统计两大部分。而推断统计涵盖了参数估计、假设检验与贝叶斯统计三种。我们本篇内容暂且将目光聚焦于假设检验方法上。前面讲述了描述统计,而在统计推断部分,区间估计、点估计与假设检验一脉相承,密不可分。
2.1 点估计
通俗来讲,我们很多时候并不具备挨个调查总体的能力,那么怎么办呢?只能从总体中抽样,组成一个可以反应总体特征的样本,通过观察这个样本去间接地描述总体。
那么点估计的定义就是,假设一个总体X的分布函数形式已知(如正态分布)而有一个或多个参数未知(如均值/方差等),那么这时候用X的一个样本的这些参数来估计X本身的参数,就叫点估计。
2.2 区间估计与置信区间
理想很丰满,现实很骨感。点估计的概念里提到,前提条件是总体X分布函数已知,当我们真的做研究时,几乎没可能知道总体的分布。我们只能拥有样本数据,还不一定准确。那么这个时候,我们就只能给出一个参数所在的范围。这就是区间估计。区间估计是要比点估计优秀和精确的,它可以根据样本统计量的抽样分布对样本统计量与总体参数的接近程度给出一个概率度量[1]。
在区间估计中,对参数估计的区间就是置信区间。可以这么理解:区间估计估计出来的区间,就叫区间估计的置信区间。而如果我们将构造置信区间的动作(也就是区间估计)这一动作重复很多遍,这么多遍里总体X的真值总会在某次被包含在内。被包含的次数所占比例就是置信度或置信系数。可以通过下面的图来表示:
置信区间表达(知乎:假设检验 | 什么是置信区间)
u代表真值,所有竖线代表构建的置信区间,一共有20条(20次试验),只不过有1次没能包含真值。所以置信度就是19/20。
2.3 假设检验
关于假设检验,我们先将这个词拆分开来看:
假设,分为零假设(H0)与备择假设(HA):这里我们以一个例子来讲解,假设我们想要探究高校同学每天接触电子屏幕的时间与他们的视力是否有关,那么在这个实验中,首先有一个默认为真的零假设:高校同学每日接触电子屏幕的时长与其视力无关。而它的备择假设就是,两者有关(可能正相关,也可能负相关)。通俗来讲,零假设内容一般为没有关系、没有发生、没有改变,是默认为真的(是的没错,它诞生就是为了被推翻的!)。备择假设则是它的补集,是需要我们努力去证实的。我们接下来就要通过抽样试验来试图推翻零假设,最后再根据试验结果决定到底时接受还是推翻零假设。这个流程就叫做假设检验。
那么具体怎么检验呢?检验就是要计算一个概率,就是在零假设为真的情况下,得到当前结果或更极端结果的概率。换句话说,就是在零假设为真的情况下偶然得到这个结果的概率。如果概率很小的话,自然零假设不可信。所以我们最后根据概率的大小(如果用数学符号来表示,就是P(得到当前结果或更极端结果 | H0))做出决策,如果小于某一临界值,那么就推翻零假设。如果大于,那么就不能拒绝零假设。
假设检验流程(作者自绘)
2.4 假设检验与假设显著性水平
这两者又是如何发生关联的呢?在假设检验中,我们说过要根据p值(P(得到当前结果或更极端结果 | H0))大小判断是否接受零假设。p值就是要和显著性水平α比较,通常取0.05或0.01。如果p<=α,拒绝零假设。否则只能接受零假设。
当然,就算p真的小于α,那也并不代表零假设绝对是错的(只不过为真的概率很小)。但是我们这时候却根据规定拒绝了它,那不就犯错了吗?是的,在假设检验中是会发生错误的,就叫决策错误。下面用表格的形式列出。
决策错误的类型
显著性水平α也可以理解为愿意犯Ⅰ类错误的最大概率。
在了解假设检验的前因后果之后,你可能会有疑问,现实研究中想要探讨的问题远不止抽样估计总体均值或者探讨某两个变量是否相关这么简单,变量类型也多种多样。是的,针对不同情况需要用不同的检验方法。我们在接下来结合实例来了解。
三、不同情况下假设检验方法选择
在介绍具体方法之前,我们再明确一下目标,就是要推翻零假设。那么有两种情况,一种是我们对于总体分布是已知的,只是有部分参数未知。这时候用参数检验。另一些场景下我们对于总体知之甚少,并不知道总体分布是怎样的,这个时候用非参数检验。参数检验对于数据要求同时满足正态分布和方差齐性,精确度较高。而非参数检验则对于数据要求较低。精确度也较低。在社科类研究中使用更多一些。由于数据和篇幅的限制,挑选其中常用的一些方法来向大家展示。
参数检验方法(来源:https://wenku.baidu.com/view/797b77c7a1c7aa00b52acb09.html)
非参数检验方法
接下来我们转入案例实践阶段。而在此之前可以再回顾一下这张表格:
大公报图像编码节点变量分类(作者自绘)
3.1 秩和检验
探索问题:香烟图像与威廉士图像两个总体的空间开放程度是否有差异?
零假设:无显著差异;备择假设:有显著差异。
其它:两独立样本、有序分类变量
数据处理:我们将开放、半开放、半私密、私密四个等级编号为1、2、3、4,也就是说,数字越大,空间更偏向私密。威廉士图像编码为1,香烟为2。得出香烟和威廉士所有场景图象对应的编码。
图像类型和空间开放程度一一配对
导入spss进行分析。需要注意的是,我们最好将图像类型作为名义变量,而将另一个作为度量变量,否则可能要报错。
选择非参数检验-两个独立样本
把组1组2对应的数字选择好
点击确定
结果如下:
结论:
p值为0,推翻零假设,即两者图像的空间开放程度有明显差异,而韦廉士图像的秩明显大于香烟,所以韦廉士的图像整体来说空间更偏向私密,香烟场景图像更开放。
3.2 卡方检验
探索问题:韦廉士图像中,不同空间类型中的人物服饰是否有显著不同?
零假设:不同空间开放程度的人物服饰没有显著差异;备择假设:有显著差异。
其它:多个独立样本、无序分类变量。
数据如下:
卡方检验的数据
注意,由于作者事先统计了频数,所以需要先对个案进行加权(注意:也可以不统计频数而是单纯的共现数据。此时不需要加权)
步骤如下:
加权个案
进行检验
结果如下:
结论:
当总样本量n≥40且所有的单元格的理论频数(期望频数)T≥5时,采用Pearsonχ2检验,看第1行的结果;当总样本量n≥40但有1≤T<5时,采用连续性校正χ2检验,看第2行的结果。p值为0.049,小于0.05,所以拒绝零假设。可以勉强说不同空间类型的人物服饰有较显著的差异。而至于具体节点的关联程度,比如什么样的空间更容易出现哪种服饰,还需要进行进一步挖掘。之后的相关性分析可以解决这一问题。
3.3 单因素方差分析
单因素方差是参数检验方法,上述几种均是非参数检验。所以单因素方差对于数据的要求很高。有三个前提:1. 几组样本相互独立,2.整体残差满足均值为0的正态分布,3. 方差齐性。
因为本次需要用到连续型变量,所以我们需要对于所有子节点进行赋值和运算,来得到连续型变量(将分类变量转化为定量变量),例如西式服装赋值为2,而清代旗袍装赋值为-1。具体的赋值标准如下:
节点编码赋值表(仅展示部分)
背景说明:
自《大公报》创刊以来共经历四个时期:1.英敛之时期:1902年-1916年,2.王郅隆时期:1916--1925年11月27日,3.新记时期,1926-1949年,以及第四个时期1949年以后[3]。而韦廉士图像出现时期为1915-1930,所以我们以1916年、1925年为分界点将韦廉士图像得分分为三组数据,来探究其在不同的时期图像所表现出来内容的开放程度有无显著差异,以及差异是怎样的。
探索问题:以1916年、1925年为分界点将韦廉士图像得分分为三组数据,来探究其在不同的时期图像所表现出来内容的开放程度(分值)有无显著差异,以及差异是怎样的。
零假设:没有差异;备择假设:有差异
其它:多独立样本、连续型变量
在开始进行单因素方差分析时,我们先对其进行探索性分析,观察因变量的大体分布,另外再对方差进行检验是否满足方差齐性,来确保数据满足它的三个前提条件。
三组图像得分的箱线图
可以看到第一组、第三组数据十分分散,三组的均值比较相近且都处于较中间的位置。
接下来看整体残差:
计算残差
对残差进行正态性检验分析:(注意,正态性检验的零假设是数据满足正态分布)点击分析--描述性统计--探索:
正态性检验
残差直方图
直方图可以看出并不满足均值为0的正态分布。检验结果如下:
可以看到sig也就是p值为0,不满足正态分布。这个数据并不适合做方差分析。但是为了向大家演示方法,可以接着做一次方差分析,再做一次秩和检验来对比两者结论。
接下来对于数据进行方差齐性检验:
选择分析--比较平均值--单因素ANOVA检验:
方差齐性检验
结果如下:
组间的p=0.016,远远小于0.05,所以组间方差不齐,各组存在差异。但是我们仍未知道两两之间的关系。所以接下来进行两两比较:
两两比较
比较结果
结果如上。图像得分第三组<第一组<第二组。也就是说,韦廉士图像的开放程度出现了由保守-开放-保守的变化。我们接下来再做一次秩和检验,来求证这个结论。关于秩和检验的做法之前已有阐述,故在此略去。
秩和检验结果
秩和检验结果如上。显著性<0.05,组间差异显著,秩均值2>1>3,与之前的方差分析结论一致。
四、统计分析模型
4.1 相关性分析
当我们对于两个或两个以上变量之间的关系感兴趣时,最基本测度之一——相关系数。相关系数有不同的类型,参数检验中的相关系数为Pearson相关系数,而非参数检验时使用Spearman相关系数。相关系数包含两个特征,其一是方向。相关系数为正,变量之间为正相关。反之,为负相关。另一个特征是量级,相关系数的绝对值位于0-0.2表示弱相关,0.2-0.5为中等相关,大于0.5强相关。需要注意的是,相关系数只能说明变量之间的相关性,而没有因果关系[2]。
以实例来说明:
探究问题:来探究服饰节点与身体裸露程度被编码频数有无相关性。
零假设:无相关性;备择假设:有相关性
其它:单个样本、离散型变量(频数)
数据如下:
相关性分析数据
这里选择双变量相关。因为这些变量和第三者变量没有相关关系。当两个变量同时与第三个变量相关时应该使用偏相关分析。并且注意选择Spearman系数。
相关性分析步骤
结果如下:
相关性分析结果
结论:在此表中可以看到,改良版旗袍和脚踝、手臂、腿的裸露有强相关性,也符合我们的常识。
女子身穿改良版旗袍(图片来源于网络)
补充一点,如果在研究中我们选择的自变量之间也存在很强的相关性时,我们可以通过主成分分析法降维,或者通过偏相关分析等方式来避免干扰。
4.2 回归分析
讲完了相关分析,再来讲一下与其颇有渊源的回归分析。注意,回归分析并不属于统计分析模型。而是属于统计关系分析的定量分析。回归分析有很多种。这里先来讲最常用的一元线性回归。
一元线性回归与相关性分析有相似性。两者都可以表示变量之间的线性关系及其显著性,但是一元线性回归中就有自变量和因变量的存在,即因果关系的存在。这里以大公报香烟图像数量随年份变化为例。出于分析需要,这里将年份看出了连续性变量。
数据如下:
图片数量于年份散点图
对散点图进行线性拟合
现在我们得到了一个拟合曲线和一个公式。但是这个公式可信度有多少呢?还需要进行显著性检验。导入spss对其进行回归分析:
线性回归步骤
回归分析结果
结论:R方表示所建回归模型的解释程度,这里有50%左右。
sig值,也就是p值为0.006,所以可以认为因变量图像数量与年份有显著的线性关系,随着年份的增长图片数量有明显上升,并且其关系满足y = 3.238x - 6221.6 。
此外,除了最简单的线性回归,还有多种回归类型。按照自变量和因变量的不同情况还有岭回归、主成分回归、分段回归、分位数回归、广义回归等等。应该根据不同应用场景选择适合的回归方式。
4.3 聚类分析
顾名思义,聚类分析可以将数据按照它的属性分类,相似的聚在一起。聚类分析算法很多,包含两步聚类、K-means聚类、系统聚类等等。这里重点讨论层次聚类。我选择了两个例子:第一个例子是根据编码节点的相似度进行聚类,再结合Gephi作可视化。第二个是根据图片各个母节点分值的相似度进行聚类。(即一个对节点进行聚类,一个对图片进行聚类)
理解层级聚类,首先我们引入“距离”的概念:通过距离指标,将距离相近的样本归为一类,距离较远的样本则被认为是不同类别。层次法(Hierarchical methods)的原理就是先计算样本之间的距离。每次将距离最近的点合并到同一个类。然后,再计算类与类之间的距离,将距离最近的类合并为一个大类。不停的合并,直到合成了一个类。所以他最后的结果是一个层级树状图。
4.3.1 节点聚类
运用Nvivo软件自带的探索选项卡中的聚类分析对节点进行分类。
Nvivo聚类
这里使用Jaccard系数。其含义为A与B交集的大小与A与B并集的大小的比值。
与Jaccard 系数相关的指标叫做Jaccard 距离,用于描述集合之间的不相似度。Jaccard 距离越大,那么样本相似度越低。
Jaccard系数解释(作者自绘)
进行运算后可以在“汇总”视图查看数据:
聚类后的数据
层次聚类树状图
不同颜色代表不同组。软件会自动根据距离为节点分组,例如街道、公共距离和散步这三个节点属于同一组,说明三者被编码的图像有着高度的重合,所以可以认为三者经常出现在同一张图像中。
我们把数据导出到excel表,做一些处理后在Gephi中做可视化。如果只考虑节点间的联系度,那么只需要edge文件,处理成下面这样:
edge数据处理
将数据导入到Gephi中后,可以进行各种运算以及可视化布局。Gephi的优点是可以将各类运算的结果以可视化的方式来表达出来。这里介绍模块化(Modularityindex)算法,
模块化可以将节点划分为若干个社区,将联系更为紧密的节点划分在一个社区内。社区的数量由解析度决定。具体算法可参照:Vincent D Blondel, Jean-Loup Guillaume, Renaud Lambiotte, Etienne Lefebvre, Fast unfolding of communities in large networks, in Journal of Statistical Mechanics: Theory and Experiment 2008 (10), P1000
模块化
模块化结果
可视化成果如下:
WLS节点编码可视化
通过这张图我们可以看到,最直观的中心橙色模块的节点:中青年女性、无裹脚、一男一女、中式传统发型、传统布鞋被编码次数最多,在同一张图片出现的次数也多,联系紧密。如果对于社交网络的更多概念感兴趣,可以看这个网站:https://wenku.baidu.com/view/1984a700551810a6f4248670.html
4.3.2 年份图片聚类
这一步我们的目的是将韦廉士广告图像1915-1930年的各年份图像按照各个母节点得分的相似度进行聚类。
数据处理如下:
各年份母节点分值
一开始我们并不知道应该把它们分为几类。所以我们还是先进行一次不规定聚类数的聚类:
聚类分析步骤
初步聚类结果
将得出的平均联结表导出到excel,对系数进行降序排序后绘制折线图:
判断的分类个数的一个标准就是在某个阶数之后下降的趋势会趋于平缓,及相邻的两个数据变化的幅度显著小于前面系数变化的范围。所以我们分4类。
再次进行聚类分析。注意指定聚类数为4:
第二次聚类
结果如下。会在年份后面注明属于的类别。
我们对4个类别进行雷达图绘制:
四类图像雷达图
我们可以看到,所有图像左下角的女性身体裸露得分都很高。是因为赋值时身体裸露被视为开放的象征,所以都为正值,第一类空间空间类型和交往活动类别以及服饰分数都很低。第二类裹脚图像较多,所以裹脚节点分值特别低。第三类和第一类相似,但是空间空间类型和交往活动类别以及服饰分数稍微高。第四类是比较均衡的,各方面的分值都较高。值得注意的是,尽管被打乱分类,年份的顺序依然没变。说明相邻图像整体的确呈现一些相似性,由保守向开放的变化是渐进式的。
四 、结语
本篇文章是笔者在尝试分析广告图像、观念史、都市史过程中探索的产物,可能并不能称之为合适的一种方法,定量的方法可能可以发现一定规律但是也会抹消掉很多细节,做不到对每张图像都深入读图,使得结论流于表面而隐喻性的层面得不到发掘。所以欢迎各位多多提出质疑或建议。
特别感谢南京大学陈静老师团队及CCAA项目提供详尽的《大公报》数据,研究工作得以顺利开展。
五、参考书目
[1].毕硕本.空间数据分析[M].北京:北京大学出版社.2015.
[2].蒂莫西·C·厄丹. 白话统计学[M].彭志文,译.北京:中国人民大学出版社,2013.
[3].孙会.《大公报》广告与近代社会(1902-1936)[D].石家庄:河北师范大学,2009.
撰稿 编辑 / 王超群
校对 / 张宇程
。
往期相关